查看原文
其他

超越谷歌翻译!全球首个翻译引擎来了,细节狂魔搞定方言文言文

21CTO 2021-10-21


最近一款新机器翻译引擎叫DeepL(同时也是工具)非常火,据称其表现可以秒杀谷歌翻译和微软翻译,特别是受到了日本网民的追捧,传言可以把文言文翻译得和人写作的一样,这个消息对于我这个经常阅读国外资讯的来说,还是挺感兴趣的。


那么,DeepL是何方妖怪,敢如此标榜自己?


DeepL是德国一家科技公司开发的一款创新的免费翻译系统,称为DeepL Translator。


以下为DeepL的简介:


技术提高了人们彼此之间的沟通能力,这在10年前是无法想象的。虽然像Google Translate这样的机器翻译服务的出现,支持了这一全球交流的空前发展,但在线翻译器在很大程度上仍不如人类翻译,而且出了名的不准确。


比如当被要求将 "惊人的 "一词翻译成意大利语时,谷歌的回答是 "stupefacente",这个词更常用于形容麻醉品,与 "stupefacente "更相似。


DeepL是一家总部位于德国的科技公司,专门从事自然语言翻译,它的诞生是为了开发一种更先进的深度神经网络翻译服务,将语言翻译从呆板的翻译转变为自然的翻译。

由于大多数用户已经知道谷歌翻译,所以他们可能不会去寻找替代方案来翻译一个单词或特定文本。然而,这种情况可能会随着DeepL的到来而改变,因为根据其创造者的说法,它能够产生比任何其他机器翻译系统更高质量的翻译。


各位,先来看一下Deepl的产品UI。


DeepL翻译:https://deepl.com


DeepL和谷歌翻译以及国内相关翻译网站界面很像。DeepL刚刚支持简体中文,我尝试了一下翻译日本捐助中国新冠疫情时的诗句,确实风味不同。


同样的词句,谷歌翻译过来是这样的文风:


谷歌翻译:https://translate.google.cn


相比之下,DeepL在翻译上确实做到了信雅达。


从之前日本网友的民间测评来看,不仅日语方言翻译效果杠杠的,连日式文言文也被拿下,要知道,这是连谷歌翻译无法做到的事。



做为古文爱好者,我们用文言文试用了DeepL的机器翻译:



从译文来看,准确且有信、雅、达的意思。


那么,我们就来实际对比测试一下,分别对谷歌翻译、DeepL以及百度翻译,Bing翻译、有道翻译对同一句话的反馈情况。


我们用东北话十级中的“我勒个去,他对象长滴老磕碜了”来做源文翻译。


谷歌翻译



Bing微软翻译



百度翻译



有道翻译


DeepL



通过对比,可以看到DeepL的翻译比几家都要好。


在DeepL网站的底部也宣布其它媒体宣传其产品的引用文字,请看下图:



如此看来,DeepL产品的确不错,那么它的架构是什么样子呢?来看DeepL的CTO怎么说的:


Verne Global及其冰岛的地理位置是一个理想的选择。Verne Global的团队设计了工业规模的园区,专门支持HPC和密集型AI和机器学习应用。该园区由冰岛丰富可靠的能源提供动力,由于冰岛凉爽的温带气候,自然冷却不需要任何成本。Verne Global 的技术团队在支持 HPC 基础设施和部署在其上的应用方面具有很高的技术水平,并在世界一流的客户服务方面建立了令人羡慕的声誉。


我们需要一个为HPC优化的数据中心,在德国无法满足我们的需求。Verne Global的冰岛园区为我们提供了我们所需要的可扩展性、灵活性和技术资源。


Jaroslaw Kutylowski博士

CTO,DeepL


除了在冰岛有优秀的硬件基础,DeepL 的团队在过去十年中,收集了超过十亿份高质量的翻译文本作为神经网络的学习资料。


DeepL 团队的愿景不仅限于翻译,而是利用神经网络已经开发出的一系列文本理解,去扩展人类不同文化的接触面。


DeepL公开了日英互译和中英互译与其它翻译工具的盲测结果。如下图示:


盲测是在专业译员评审们不知道哪个翻译版本是由哪个网站翻译的情况下,对翻译文本进行评估,这也一直是DeepL的测试方式之一。

由于DeepL的技术比Google更先进,产生的翻译非常自然,接近于人工翻译的结果。由于极好的准确性,也引爆了Reddit,有网友指出,DeepL不是像谷歌翻译那样从字词上进行翻译,从Textractor的设置上可以看到,DeepL还支持用以前的翻译作为上下文对翻译结果进行改善。


有不少网友直呼“DeepL牛X”!


3年前,DeepL刚出现在大众视野的时候就已经吸引到了不少目光,DeepL首席执行官Gereon Frahling曾表示,DeepL的目标不止于翻译任务,神经网络将从理解文本开始,开启更多可能。

见识到了DeepL的“独秀”表现,接下来,我们就重点介绍一下本次测评表现最佳的头号种子DeepL。

不知道DeepL?那Linguee应该听说过吧,就是那个运营十多年的在线外语词典,DeepL的前身正是Linguee。Linguee是一款出现多年的翻译工具,尽管使用广泛,也有一批忠实用户,但其翻译质量尚无法与谷歌翻译相提并论,尤其是考虑到后者品牌和地位的巨大优势。

但真正重要的是Linguee的技术积累,Linguee的联合创始人Gereon Frahling之前就在谷歌研究院工作,2007年,他选择开启新的征程,团队数年来一直致力于机器翻译,直到2016年,他们才开始全力开发全新的系统,建设新公司,也就是DeepL。

Linguee的核心竞争优势就是爬虫和机器学习系统,前者能够抓取互联网上超过10亿句翻译结果和查询的大型数据库,后者在网页上搜索相似片段的真实翻译方法并对其评估,两者结合使Linguee成为了当时“世界上首个翻译搜索引擎”。

十年积累下来,Linguee无论在数据和对算法的研究上都不可小觑,而这也直接成为DeepL的绝对优势,为团队训练新模型打好了坚实的基础。



前面提到过,DeepL变革性的神经架构在冰岛的一台超级计算机上运行,该计算机能力为5.1 petaFLOPS(每秒5100万亿次操作),不到一秒内能翻译100万单词。“冰岛可再生能源丰富,因此我们可以在这里用非常低廉的成本训练我们的神经网络。我们将继续专注于高性能硬件”,DeepL的CTO Jaroslaw Kutylowski解释说。

“我们的神经网络架构已经实现了多个显著改善”,Gereon Frahling表示,“通过用不同的方式安排神经元及其连接,我们的网络比目前其他神经网络更全面地映射自然语言。”

大学、研究机构和Linguee的竞争对手发布的研究进展表明,卷积神经网络才是机器翻译的正确道路,而非DeepL之前使用的循环神经网络,但现在不是探讨二者区别的时候,对于相关词语的长、复杂字符串,只要你能够控制其弱点,卷积神经网络效果会更好。

例如,CNN一次处理一个单词,当句末单词决定句首单词的形成时,这就成了问题。查找整个句子寻找句首单词,如果网络获取到的第一个单词是错误的,就太浪费了,还得使用该知识重新开始,因此DeepL和机器学习领域的其他机构在CNN转向下一个单词或词组时,使用能够监控此类潜在问题的“注意力机制”来解决。

DeepL在最新版本增加了对日语和中文(简体)的支持,包括日语汉字,平假名和片假名以及数千个汉字。目前,DeepL支持的语言数量增加到11种,虽然语言支持不如其他翻译服务广泛,如Google Translate和Bing Microsoft Translator均支持一百多种不同的语言,但翻译精度也是不可忽视的关键点。

目前,DeepL支持的语言数量增加到11种,虽然语言支持不如其他翻译服务广泛,如Google 翻译和Bing Microsoft 翻译均支持一百多种不同的语言,但翻译精度也是不可忽视的关键点。Google翻译的最佳功能之一是它可以导入文档,并且一旦翻译后就可以在线显示翻译。Google 翻译仍然比DeepL具有更多功能;Google翻译提供语音翻译,图像翻译,并且与Chrome浏览器集成在一起,可以翻译任何网站而无需离开网站。

而DeepL翻译服务的缺点之一是,目前它无法从Web浏览器翻译整个网站。

掌握多国语言的Techcrunch编辑Frederic曾这么评价DeepL系统:“谷歌翻译的风格非常直接,但却错过了一些细节和习语(或者把这些习语翻译错了),而 DeepL 经常可以提供更加自然的翻译效果,就像训练有素的人类翻译一样。”

机器翻译非常适合做为工具支持,特别是专业人士。尽管DeepL改进了机器翻译,但它永远也无法替代专业翻译人士的工作。


各位的意见是什么?欢迎文底留言。


作者:小洛


推荐阅读:

一份来自亚马逊工程师的Google面试指南,GitHub收获9.8万星,已翻译成中文
谷歌新操作系统Fuchsia OS即将完成,或将取代安卓
伟大创新者的帝国都有哪此不同?

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存